欢迎访问申安风向
联系电话:15900691655

产品简介

暗数据发现与分类分级系统是一款面向暗数据进行自动化数据分析、分类的产品。暗数据发现与分类分级系统致力于认识数据,可实现自动化捕获元数据、识别表格的类型、数据的语义内容和数据格式,并进一步分析表格之间的关联关系以及表格包含的业务信息。源数据发现完成后会生成一份完整的分析报告,整个发现过程同时实现了数据口径统一、数据标准的建立。

暗数据发现与分类分级系统可以多种数据源,包括关系型数据库、NOSQL、hadoop等等,可以为元数据共享、数据分级分类、数据标准管理、数仓建模等多种应用场景提供技术支持,同时覆盖了医疗、港口、金融、社保等行业。

核心功能

1.发现作业配置

用户在平台上新建发现作业时,在选定数据源之后可以根据自身业务选择特定行业模板,并设置抽样行数来决定后续抽样数据分析的抽样规模;为了使用户更详细地了解每一步的发现结果,支持开启人工干预来进行源数据发现。

2.元数据分析

对元数据信息进行统计分析,页面上会展示所选数据源下每张表的表格元数据,包括表格规模、表格注释、列数量、时间列数量、主键数量等信息;更细一步地,还统计了列级别的元数据,包括列注释、字段类型、列长度、是否主键列等信息;此外,可以直接搜索表格名来查看具体某张表的元数据。

3.数据智能解析

根据内置的数据标准,实现自动识别数据格式,在此基础之上,通过自然语言处理、特征分析等方法进行语义内容识别,帮助用户快速认识数据;支持按表名、技术类型、业务类型等进行排序、筛选操作,同时可以查看列样本数据,对分类错误的结果进行修改。数据智能解析的完成能够帮助用户自动生成一份像数据字典一样的工具。

4.表格分类

对表格元数据信息进行特征提取,再结合数据智能解析的结果加以补充,然后用统计模型对表格进行分类;支持查看元数据和样本数据,支持对分类错误的结果进行修改。

5.表格关联分析

在数据智能解析和表格分类的基础之上,通过提取数据之中隐藏的特征,根据特征去发现数据之间的联系,使数据内部关系透明化;支持缩放、拖拽、点击查看具体关联关系等操作;支持查看元数据和样本数据。

6.表格业务分析

直观展示每张表格包含的业务内容,输出得分最高的前三种类型和相应得分;支持点击查看元数据详情和围绕选中目标表展开的关联关系。

7.分析报告

自动生成一份包含元数据信息、列的技术类型及业务类型、表格的类型及关联关系的源数据发现报告;支持以xml格式导出。

产品价值

· 全面捕获数据,适配多种数据源

暗数据发现与分类分级系统能够适配多种数据源,包括关系型数据库、NOSQL、hadoop等,通过广泛的适配各种各样的数据源扫描相关数据,充分利用数据库内的数据信息进行统计分析,从而可以得到全面的关于数据分布、规模、种类的分析结果。

· 统一数据口径,建立数据标准

内置的数据口径、标准和规则非常完善和健壮,进而帮助我们统一数据口径、建立数据标准。通过内置的数据标准可以识别数据的技术类型和业务类型,可以明确的识别身份证号码,姓名,地址,编号等,把不可认知的数据变成有价值的数据。

· 内置业务模型,适配多种行业

深入行业的研究,在金融、医疗等各行业积累了大量的经验。凭借这些丰富的行业经验,源数据发现平台对医疗、港口、金融、社保等行业做了专门的适配,内置了我们的业务模型,支持通过增加语料完成业务模型自学习,使得源数据发现平台可以很好地在这些行业得以应用。

· 对外接口丰富,横向方案拓展

暗数据发现与分类分级系统提供多种对外接口,能与其他系统进行交互,在数据脱敏、数据分级分类、数仓建模、数据标准管理等方面进行协作,更大的发挥数据的利用价值。

· 分析结果可视化,快速了解数据

暗数据发现与分类分级系统提供了丰富的图表,通过可视化的方式展示数据资产报告,直观清晰的展现数据富含的意义,使得用户可以快速的较容易的了解数据,同时支持用户对图表进行点击查看、缩放、拖拽并进行修改等操作,在帮助用户迅速了解大量数据的同时增加了交互性。

· 暗数据资产化,从数据认识数据

暗数据发现与分类分级系统内置了机器学习模型和丰富的语义资料,在面对不同行业多样化的数据时,可以自动适配进行发现。通过源数据发现可以开发隐藏数据包含的价值,将用户不理解的看似无用的数据变成分类完善、容易理解、有业务价值的数据,并通过可视化的方式呈现,将最基础的数据资产变成了优质的数字资产。相较于未进行源数据发现之前,用户可以对数据有一个更直观、清晰的认识,也可以对优质的数字资产进行数据分析、数据业务等更多的运用,从数据认识数据,实现暗数据资产化。

· 构建数据地图

实现源数据的数据地图展示功能,以数据地图对分析结果的各类表格关联关系、数据关系等进行分层次的图形化展示,并通过不同层次的图像展示粒度控制,满足开发、运维或者业务上不同应用场景的数据查询和分析需要。